我们提出了Pangu-Coder,这是一种仅预读的解码器语言模型,该模型采用pangu-alpha架构进行文本到代码生成,即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder:第一阶段采用因果语言建模(CLM)来预先培训原始编程语言数据,而第二阶段则使用因果语言建模和掩盖语言建模(MLM)的组合培训目标,专注于文本到代码生成的下游任务,并培训松散的自然语言程序定义和代码功能。最后,我们讨论了pangu-coder-ft,该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder,重点是它是否生成功能上正确的程序,并证明它在参加较小的上下文窗口和较少的数据培训的同时,它比诸如Codex之类的类似大小的模型(例如Codex)实现等效性或更好的性能。
translated by 谷歌翻译
社区问题应答(CQA)是一个明确的任务,可以在许多方案中使用,例如电子商务和在线用户社区以进行特殊兴趣。在这些社区中,用户可以发布文章,发表评论,提出一个问题并回答它。这些数据形成异构信息来源,其中每个信息源都有自己的特殊结构和背景(附加到文章或相关问题附加的评论)。大多数CQA方法仅包含文章或维基百科,以提取知识并回答用户的问题。然而,这些CQA方法并未完全探索社区中的各种信息源,并且这些多个信息源(MIS)可以向用户的问题提供更多相关知识。因此,我们提出了一个问题感知异构图形变换器,以将MIS纳入用户社区中的MIS,以自动生成答案。为了评估我们所提出的方法,我们在两个数据集中进行实验:$ \ text {msm} ^ {\ text {msm}} $ the benchmark dataset ms-marco和Antqa数据集的修改版本,它是第一个大规模CQA数据集有四种类型的错误。在两个数据集上进行广泛的实验表明,我们的模型在所有指标方面都优越所有基线。
translated by 谷歌翻译
随着数据驱动技术的快速发展,数据在各种计算机视觉任务中起着至关重要的作用。已经提出了许多现实和合成数据集来解决不同的问题。但是,有很多尚未解决的挑战:(1)数据集的创建通常是一个带有手动注释的繁琐过程,(2)大多数数据集仅设计用于单个特定任务,(3)3D场景的修改或随机化很难,(4)商业3D数据的发布可能会遇到版权问题。本文介绍了Minervas,这是一种庞大的内部环境虚拟合成系统,以促进3D场景修改和各种视觉任务的2D图像合成。特别是,我们设计了一个具有特定域语言的可编程管道,允许用户(1)从商业室内场景数据库中选择场景,(2)通过自定义规则合成不同任务的场景,以及(3)渲染各种图像数据,例如视觉色,几何结构,语义标签。我们的系统可以轻松为不同任务定制大量场景的困难,并通过使用多级别采样器提供可控制用户控制的随机性来缓解用户操纵精细的场景配置。最重要的是,它使用户能够访问具有数百万个室内场景的商业场景数据库,并保护核心数据资产的版权,例如3D CAD模型。我们通过使用合成数据来改善各种计算机视觉任务的性能来证明系统的有效性和灵活性。
translated by 谷歌翻译
在感官替代领域的长期目标是通过可视化音频内容来实现对聋人的声音感知。与语音和文本或文本和图像之间的现有模型不同,我们针对即时和低级音频到视频翻译,适用于通用环境声音以及人类语音。由于这种替代是人为的,没有监督学习的标签,我们的核心贡献是通过高级约束来建立从音频到视频的映射。对于言语,我们通过将它们映射到共同的解除不诚格的潜在空间来释放型号(性别和方言)的内容(电话)。包括用户学习的定性和定量结果表明,我们的未配对翻译方法在生成的视频中保持了重要的音频功能,并且面孔和数字的视频非常适合可视化可以通过人类解析的高维音频特征和区分声音,单词和扬声器。
translated by 谷歌翻译
In the process of materials discovery, chemists currently need to perform many laborious, time-consuming, and often dangerous lab experiments. To accelerate this process, we propose a framework for robots to assist chemists by performing lab experiments autonomously. The solution allows a general-purpose robot to perform diverse chemistry experiments and efficiently make use of available lab tools. Our system can load high-level descriptions of chemistry experiments, perceive a dynamic workspace, and autonomously plan the required actions and motions to perform the given chemistry experiments with common tools found in the existing lab environment. Our architecture uses a modified PDDLStream solver for integrated task and constrained motion planning, which generates plans and motions that are guaranteed to be safe by preventing collisions and spillage. We present a modular framework that can scale to many different experiments, actions, and lab tools. In this work, we demonstrate the utility of our framework on three pouring skills and two foundational chemical experiments for materials synthesis: solubility and recrystallization. More experiments and updated evaluations can be found at https://ac-rad.github.io/arc-icra2023.
translated by 谷歌翻译
Indoor scenes typically exhibit complex, spatially-varying appearance from global illumination, making inverse rendering a challenging ill-posed problem. This work presents an end-to-end, learning-based inverse rendering framework incorporating differentiable Monte Carlo raytracing with importance sampling. The framework takes a single image as input to jointly recover the underlying geometry, spatially-varying lighting, and photorealistic materials. Specifically, we introduce a physically-based differentiable rendering layer with screen-space ray tracing, resulting in more realistic specular reflections that match the input photo. In addition, we create a large-scale, photorealistic indoor scene dataset with significantly richer details like complex furniture and dedicated decorations. Further, we design a novel out-of-view lighting network with uncertainty-aware refinement leveraging hypernetwork-based neural radiance fields to predict lighting outside the view of the input photo. Through extensive evaluations on common benchmark datasets, we demonstrate superior inverse rendering quality of our method compared to state-of-the-art baselines, enabling various applications such as complex object insertion and material editing with high fidelity. Code and data will be made available at \url{https://jingsenzhu.github.io/invrend}.
translated by 谷歌翻译
太阳能的间歇性质挑战了光伏(PV)在电网中的大规模集成。使用深度学习的基于天空图像的太阳预测已被认为是预测短期波动的一种有希望的方法。但是,对于基于图像的太阳预测,几乎没有公开可用的标准化基准数据集,这限制了不同预测模型的比较和预测方法的探索。为了填补这些空白,我们介绍了Skipp'd-天空图像和光伏发电数据集。该数据集包含三年(2017-2019)的质量控制下采样的天空图像和PV发电数据,这些数据可用于使用深度学习的短期太阳能预测。此外,为了支持研究的灵活性,我们还提供了高分辨率,高频天空图像和PV发电数据以及并发的Sky录像。我们还包括一个包含数据处理脚本和基线模型实现的代码库,以供研究人员重现我们以前的工作并加速其在太阳预测中的研究。
translated by 谷歌翻译
通过将退出层添加到深度学习网络中,早期出口可以通过准确的结果终止推理。是退出还是继续下一层的被动决策必须经过每个预位的退出层,直到其退出为止。此外,还很难在推理收益旁调整计算平台的配置。通过合并低成本预测引擎,我们为计算和节能深度学习应用提供了预测出口框架。预测出口可以预测网络将退出的位置(即,建立剩余层的数量以完成推理),这可以通过按时何时退出而无需运行每个预定位置的退出层来有效地降低网络计算成本。此外,根据剩余层的数量,选择了正确的计算配置(即频率和电压)以执行网络以进一步节省能源。广泛的实验结果表明,与经典的深度学习网络相比,预测性退出可实现多达96.2%的计算减少和72.9%的能量。与最先进的退出策略相比,与早期退出相比,降低了12.8%的计算和37.6%的能量,鉴于相同的推理准确性和潜伏期。
translated by 谷歌翻译
2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩,并通过使用合适的自动探测器来监视戴口罩状态。但是,现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题,我们提出了基于Yolov5的改进的轻质面膜探测器,该检测器可以实现精确和速度的良好平衡。首先,提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后,将有效的路径攻击网络BIFPN作为特征融合颈应用。此外,在模型训练阶段,定位损失被α-CIOU取代,以获得更高质量的锚。还利用了一些有价值的策略,例如数据增强,自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比,提出的模型将推理速度提高28.3%,同时仍将精度提高0.58%。与其他七个现有型号相比,它的最佳平均平均精度为95.2%,比基线高4.4%。
translated by 谷歌翻译
由于昂贵的数据收集过程,微表达数据集的规模通常小得多,而不是其他计算机视觉领域的数据集,渲染大规模的训练较小稳定和可行。在本文中,我们的目标是制定一个协议,以自动综合1)的微型表达培训数据,其中2)允许我们在现实世界测试集上具有强烈准确性的培训模型。具体来说,我们发现了三种类型的动作单位(AUS),可以很好地构成培训的微表达式。这些AU来自真实世界的微表达式,早期宏观表达式,以及人类知识定义的AU和表达标签之间的关系。随着这些AU,我们的协议随后采用大量的面部图像,具有各种身份和用于微表达合成的现有面生成方法。微表达式识别模型在生成的微表达数据集上培训并在真实世界测试集上进行评估,其中获得非常竞争力和稳定的性能。实验结果不仅验证了这些AU和我们的数据集合合成协议的有效性,还揭示了微表达式的一些关键属性:它们横跨面部概括,靠近早期宏观表达式,可以手动定义。
translated by 谷歌翻译